开放数据不一定是好事儿?十大医学领域人工智能的争议性观点
药明康德AI编译整理(来源:博客lukeoakdenrayner)
(图片来源:pixabay)
本文编译自长期关注医学领域的知名博客lukeoakdenrayner,作者卢克·奥克登-雷纳(LukeOakden-Rayner)在引言里说道,自己在推特上就相关话题和网友做了大量的讨论,早就想列这样一个清单了,同时卢克也表示这十个观点一定会引起反驳,和已有的主流观点也会有出入和冲突。作为该领域极为出色的作者,卢克究竟对哪些主流看法提出了挑战呢?
1.开放数据并不一定是好事
第一条就是重炮!花费大量真金白银才拿到的独家数据是公司将新产品推向市场参与竞争时的重要筹码。没了这个筹码,那么公司的投资回报率就没那么有保障了。为什么要花费巨资研发一款日后谁都可以坐享其成参与生产的新产品呢?从这个角度说,开放数据反而阻碍了行业的进步。虽然数据共享有助于产出更多的研究论文,但却不会有新产品的诞生。开放数据对于差异化也是巨大的灾难,大家会拼命向着公开数据中最好的那部分做过拟合(过拟合,或称过度拟合,是指在拟合一个统计模型时使用过多参数。即使是一个荒谬的模型,只要足够复杂,参数足够多,都可以做到完美匹配数据,译者注。)
2.对于训练模型来说,正常和反常数据交织在一起是巨大的挑战
反常数据,或者俗话说的黑天鹅是无处不在的,以至于你收集的数据永远不可能覆盖所有情况,而且你发现异常数据的嗅觉通常不会那么灵敏(更何况你根本拿不到异常数据)。我猜想,要是一款“正常胸片检测器”上市,那么就会有大量的骨骼肿瘤被漏诊。
3."人工智能"是一个伟大的概念
我们都明白“人工智能”这个词意味着什么,它为这个行业带来了诸多利好和资金,而且坦率来说我们所做的事情就如同魔法一样(就像那句著名的“科技发达到一定程度就是魔法”所说的),你要是认为“AI没什么神奇的”,那你就需要一点孩子般求知欲了:我们可是用数学把声音转化成了意义、把图像转化成了决策的。所以就让我放手去干吧。
4.深度学习对于电子健康档案(Electronic Health Record, EHR)是相当无能为力的
这么说不仅仅是因为深度学习对于EHR非结构化的数据不太灵光(有一件事我很困扰:就因为它们排成了几行几列,就常常被说成是“结构性数据”。其实它们并没有什么可以利用的内部结构!),而且我看不到任何技术突破的迹象。深度学习在图像、文本、声音等等领域大展拳脚,是因为所面对的是特征子集非常有限(也就是说存在空间关系)。EHR 数据就不一样了,毫无内在结构可言(唯一的例外是EHRs的时间序列数据,它们确实有时间结构,或许可以为深度学习所利用)。所以深度学习并不比更简单的机器学习模型效果更好。
5.用户的数据可解释性(数据解释性是一个专业名词,这里可以理解为对数据解释工具的需求)被高估
(图片来源:123RF)
如果你的模型有效,大多数医生会乐于将所有的相关决策交给人工智能来做,而不需要配套的数据解释工具。可解释性方法充其量给临床医生提供了虚幻的安全感(在我看来,可解释性方法其实非常重要,但不是对技术员来说。这些方法大可以成为工具,让我们这些做品质保证的书呆子用来监控和检修AI,以保证系统持续安全)。尽管如此,对于视安全性高于一切的首席信息官(CIO,通常是公司内信息系统的最高负责人)来说,人为的数据解释工作才更有吸引力。因此,目前普遍以热点图的方式做注释的做法多少有些讽刺意味。
6.如果一支团队只会为任务建立花哨的新模型,它在医学上就取得不了任何进展
如果有人自制了一个模型,而不是利用现有的密集网络/残差网络/卷积网络/初始网络等等,那么他从事的就是机器学习研究,而非医学研究。建立并调试你自己的模型,这个过程意味着你十有八九会对特定的数据做过度拟合,这对良好的医疗系统是一道诅咒。对于使用新颖架构在医学数据中得出的结果,我是相当怀疑的。
7.发布公共代码对医学人工智能研究没有多大意义
它并不能提升高性能系统的重现性,因为若没有一个同样优秀(但内容不同)的数据集,我们就无法验证结果。就算有了共享的数据,在同样的数据上运行同样的代码,也只能证明结果不是编造出来。
8.视觉识别已经相当完善
计算机视觉模型在性能上已经不会再有大的改进。我们会看到数据利用率和半监督学习方面的缓慢进步,但是只要投入足够的努力和数据,AI就能在几乎任何一项数据任务上达到人类水平,甚至超越人类。我们已经达到了最小误差。
9.无监督学习没有临床意义
(图片来源:pixabay)
目前来看,所有可能为临床增添价值的AI都是受到监督的,因为以现在的输入而言,人类的表现已经接近最佳。无监督学习的表现越来越好,但它迟早会出差错,而且那肯定比人类的差错严重。当然,在有些情况下,无监督学习能对监督学习起到补充作用,但是要用巨量未标记的数据来解决医学问题,现在还为时过早。
10.任何AUC(Area under the Curve of ROC,一种模型评价指标)指标低于0.8的系统都不要信任
因为这个数值大致代表了医疗AI系统对非病理性影像特征过度拟合时的表现,这些特征包括X光扫描仪采用了什么模型,或者是哪个技术员拍摄的影像(这些在影像中多少都可以辨认出来)。这些系统多半会成为失败的临床AI系统,因为它们没有概括能力。显然,把这条线划在0.8是把问题过度简化了,但是对于许多普通的医疗任务,这还是一条好用的经验法则。
本文来自药明康德微信团队,欢迎转发到朋友圈,谢绝转载到其它平台。如有开设白名单需求,请在文章底部留言;如有其它合作需求,请联系wuxi_media@wuxiapptec.com。
更多精彩文章:
检出率达95.78%!一致性出色!武汉协和医院披露结节AI临床试验结果
人工智能变革医疗领域,谷歌和哈佛科学家认为的最大助力是?
点“在看”,分享AI健康新动态